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迁移 学 习 研 究 进展 
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摘要 近年 来 , 迁移 学 习 已 经 引起 了 广泛 的 关注 。 迁 移 学 习 是 运用 已 存 有 的 知识 对 不 同 但 相关 领域 问题 进行 
求解 的 新 的 一 种 机 器 学 习 方法 。 传 统 机 器 学 习 基 于 两 个 基本 假设 : (1) 用 于 学 习 的 训练 样本 与 新 的 测试 样 
本 满足 独立 同 分布 的 条 件 ，(2) 必须 有 足够 可 利用 的 训练 样本 才能 学 习 得 到 一 个 好 的 分 类 模型 。 迁 移 学 习 
降低 了 要 求 ， 目 的 是 迁移 已 有 的 知识 来 解决 目标 领域 中 仅 有 少量 或 没有 有 标签 样本 数据 时 的 学 习 问 题 。 本 
文 对 迁移 学 习 算法 以 及 相关 理论 研究 进展 进行 了 综述 ， 并 介绍 了 我 们 在 该 领域 所 做 的 研究 工作 ， 特 别 是 利 
j 生 成 模型 在 概念 层面 建立 迁移 学 习 模 型 。 最 后 指出 了 迁移 学 习 下 一 步 可 能 的 研究 方向 。 
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随 着 社会 发 展 的 信息 化 和 网 络 化 , 人 们 在 日 常生 活 和 工作 中 无 时 无 刻 不 在 获取 信息 , 分 
析 人 信息， 并 以 此 作为 决策 的 依据 。 在 一 定 程度 上 , 信息 的 拥有 量 已 经 成 为 决定 和 制约 人 类 社 
会 发 展 的 重要 因素 。 想 要 高 效 准确 地 寻找 到 所 需 的 信息 ,信息 分 类 是 必 不 可 少 的 第 一 步 。 通 
过 分 类 ,信息 可 以 得 到 有 效 的 组 织 管理 ， 有 利于 快速 准确 的 定位 信息 。 分 类 学 习 问 题 ， 是 机 
器 学 习 中 一 种 重要 的 学 习 方法 ， 目 前 已 经 得 到 广泛 的 研究 与 发 展 。 


在 传统 分 类 学 习 中 , 为 了 保证 训练 得 到 的 分 类 模型 共有 准确 性 和 高 可 靠 性 , 都 有 两 个 基 
本 的 假设 : (1) 用 于 学 习 的 训练 样本 与 新 的 测试 样本 满足 独立 同 分 布 的 条 件 ，(2) 必须 有 足 
够 可 利用 的 训练 样本 才能 学 习 得 到 一 个 好 的 分 类 模型 。 但 是 , 在 实际 应 用 中 我 们 发 现 这 两 个 
条 件 往往 无 法 满足 。 首先 ， 随 着 时 间 的 推移 ， 原 先 可 利用 的 有 标签 的 样本 数据 可 能 变 得 不 可 
用 ， 与 新 来 的 测试 样本 的 分 布 产生 语义 、 分 布 上 的 缺口 。 比 如 ， 股 票数 据 就 是 很 有 时 效 性 的 
数据 ， 利 用 上 月 份 的 训练 样本 学 习 得 到 的 模型 并 不 能 很 好 地 预测 本 月 份 的 新 样本 。 另 外 ， 有 


a 标签 的 样本 数据 往往 很 缺乏 ， 而 且 很 难 获得 。 在 Web 数据 挖掘 领域 ， 新 数据 不 断 涌 现 ， 已 
© 有 的 训练 样本 已 经 不 足以 训练 得 到 一 个 可 靠 的 分 类 模型 ， 而 标注 大 量 的 样本 又 非常 费时 费 


力 ， 而 且 由 于 人 的 主观 因素 容易 出 错 。 这 就 引出 了 机 器 学 习 中 另外 一 个 重要 问题 ， 如 何 利用 
少量 的 有 标签 训练 样本 或 者 源 领域 数据 ,建立 一 个 可 靠 的 模型 ,对 目标 领域 数据 进行 预测 ( 源 
领域 数据 和 目标 领域 数据 可 以 不 具有 相同 的 数据 分 布 )。 何 清 等 人 中 指出 数据 分 类 首先 要 解 
决 训练 集 样本 抽样 问题 , 如 何 抽 到 具有 代表 性 的 样本 集 作 为 训练 集 是 一 个 值得 研究 的 重要 问 
题 。 该 文 提出 极 小 样本 集 抽样 方法 ,用 于 基于 超 曲面 分 类 算法 。 该 方法 可 感知 非 结 构 化 数据 
的 分 布 ， 并 以 极 小 样本 集 作为 代表 子 集 。 该 文 还 指出 了 极 小 样本 集 有 多 少 种 表达 方式 。 给 出 
了 样本 缺失 情况 下 准确 率 的 精确 估计 。 这 篇 文章 表明 在 实际 中 保证 训练 得 到 的 分 类 模型 具有 
高 准确 性 和 可 靠 性 的 两 个 基本 的 假设 并 不 是 每 个 算法 都 能 做 到 的 , 因此 研究 迁移 学 习 变 得 非 
TRE. 

近年 来 , 迁移 学 习 已 经 引起 了 广泛 的 关注 和 研究 站。 根据 维基 百科 的 定义 !， 迁移 学 习 
是 运用 已 存 有 的 知识 对 不 同 但 相关 领域 问题 进行 求解 的 新 的 一 种 机 器 学 习 方 法 。 它 放宽 了 传 
统 机 器 学 习 中 的 两 个 基本 假设 , 目的 是 迁移 已 有 的 知识 来 解决 目标 领域 中 仅 有 少量 或 甚至 没 


! http://en.wikipedia.org/wiki/Transfer learning 
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有 有 标签 样本 数据 时 的 学 习 问 题 。 迁移 学 习 广 泛 存在 于 人 类 的 活动 中 。 PAS SES 
的 因素 越 多 ， 迁 移 学 习 就 越 容易 ， 和 否则 就 越 困 难 ， 甚 至 出 现 “ 负 迁移 部 ”4， 产 生 副作用 。 比 
如 : 一 个 人 要 是 学 会 了 骑 自 行车 ， 那 他 就 很 容易 学 会 开 摩托 车 ; 一 个 人 要 是 熟悉 五 子 棋 ， 也 
可 以 轻松 地 将 知识 迁移 到 学 习 围棋 中 。 但 是 有 时 候 看 起 来 很 相似 的 事情 ， 却 有 可 能 产生 “ 负 
迁移 ”比如 , 学 会 骑 自 行车 的 人 来 学 习 骑 三 轮 车 反而 不 适应 , 因为 它们 的 重心 位 置 不 同 握 2。 
近 几 年 来 , 已 经 有 相当 多 的 研究 者 投入 到 迁移 学 习 领 域 中 , 每 年 在 机 器 学 习 和 数据 挖掘 的 顶 
级 会 议 (如 ICML、SIGKDD、NIPS、ICDM、CIKM 等 ) 中 都 有 关于 迁移 学 习 的 文章 发 表 。 


2 ”迁移 学 习 算 法 研究 进展 

针对 源 领域 和 目标 领域 样本 是 否 标注 以 及 任务 是 否 相同 , 可 以 把 以 往 迁 移 学 习 工作 划分 
为 归纳 迁移 学 习 、 直 推 式 迁移 学 习 以 及 无 监督 迁移 学 习 等 请 ]。 而 按照 迁移 学 习 方 法 采用 的 
技术 划分 ， 又 可 以 把 迁移 学 习 方法 方面 的 工作 大 体 上 分 为 : D 基于 特征 选择 的 迁移 学 习 算 
法 研究 ; ii) 基于 特征 映射 的 迁移 学 习 算法 研究 ， 膏 ) 基于 权重 的 迁移 学 习 算 法 研究 。 本 文 
主要 从 这 两 条 线 对 迁移 学 习 的 工作 进行 总 结 和 综述 。 
2.1 按 源 领域 和 目标 领域 样本 是 否 标注 以 及 任务 是 否 相同 划分 


HERE GTS, S. J. Pam 和 杨 强 (音译 ，Qiang Yang) 1 针对 源 领域 和 目标 领域 样本 是 否 标 
注 以 及 任务 是 否 相 同 或 者 是 否 单一 对 迁移 学 习 进 行 了 划分 ， 如 图 1 和 表 1 所 示 。 


ERE RE: : 源 领域 有 标注 数据 : 
: 标注 数据 : 


: 源 和 目标 任 : - 
Sones eases 


ERR A 

: 有 标注 数据 : :假设 : o: 
Rt :不 同 领域 : 域 调整 
: 源 领 域 及 目 : :单一 任务 : 
: 标 领域 均 无 : ane 
: 标注 数据 : :假设 : 
DUH 、 无 监督 :单一 领域 

学 5 :单一 任务 


Dae : 样 未 选择 偏 置 
WIE tats 


El. 迁移 学 习 按照 源 领域 和 目标 领域 样本 是 否 有 标注 进行 划分 


从 图 1 可 以 看 到 ， 根 据 源 领域 和 目标 领域 中 是 否 有 标签 样本 ， 迁 移 学 习 可 划分 为 三 类 : 
目标 领域 中 有 少量 标注 样本 的 归纳 迁移 学 习 Inductive Transfer Learning)、 只 有 源 领 域 中 有 
标签 样本 的 直 推 式 迁 移 学 习 CTransductive Transfer Learning) 以 及 源 领域 和 目标 领域 都 没有 
标签 样本 的 无 监督 迁移 学 习 。 另外 根据 源 领域 中 是 否 有 标签 样本 , 还 可 以 把 归纳 迁移 学 习 划 
分 成 多 任务 学 习 、 自 学 习 。 表 1 给 出 了 传统 机 器 学 习 与 各 种 迁移 学 习 之 间 的 关系 ,以 及 各 种 
TRE P. 源 领 域 与 目标 领域 是 否 相 同 , 源 领 域 与 目标 领域 的 任务 是 否 相 同 。 迁移 学 习 是 和 传 
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统 学 习 相 对 应 的 一 大 类 学 习 方式 , 传统 学 习 处 理 源 领域 和 目标 领域 相同 且 源 领域 和 
的 任务 也 相同 的 学 习 ; 迁移 学 习 处 理 除 此 情形 之 外 的 学 习 , 包括 : 源 领 域 和 目标 领域 的 任务 
RE AEA Fe] PI VE ACER S 2] 102103281. 源 领 域 和 目标 领域 相关 但 不 相同 而 源 领域 和 目标 领域 


Ti N 领 


域 


的 任务 相同 的 直 推 式 迁 移 学 习 CTransductive Transfer Learning) DBIIP2 23。 无 监督 迁移 学 习 


与 归纳 迁移 学 习 类 似 , 不 过 主要 处 理 源 领域 和 目标 领域 中 都 没有 标签 数据 的 问题 1。 还 
EF 本 选择 偏差 、 


据 训 练 样本 和 测试 样本 是 否 来 自 于 同一 个 领域 , 把 直 推 式 迁 移 学 习 划分 为 相 


方差 偏 移 和 领域 自 适 应 学 习 这 些 相 关 的 子 领域 。 


N 


表 1. 传统 机 器 学 习 与 各 种 迁移 学 习 情形 之 间 的 关系 中 


学 习 设置 


目标 领域 目标 各 


源 领 域 和 源 任务 和 


EX 


传统 机 器 学 习 相同 相同 


归纳 迁移 学 习 | 相同 或 者 不 同 但 相关 | 不 同 但 相关 


迁移 学 习 | 无 监督 迁移 学 习 | 相同 或 者 不 同 但 相关 | 不 同 但 相关 


2.2 按 采 用 的 技术 划分 


下 面 首先 介绍 与 迁移 学 习 极 其 相关 的 半 监 督学 习 以 及 多 任务 学 习 方法 , 然后 再 对 采用 


种 技术 的 工作 进行 介绍 。 
2.2.1 半 监 督学 习 方 法 


直 推 式 迁移 学 习 不 同 但 相关 相同 


根 
协 


在 传统 的 监督 学 习 中 ， 学 习 算法 通过 对 大 量 有 标签 的 训练 样本 进行 学 习 ， 从 而 建立 模型 


] 于 预测 标记 新 来 的 没有 标签 的 测试 样本 。 但 是 随 着 信息 技术 、 互 联网 以 及 存储 技术 的 快速 


发 展 , 数据 量 随时 间 呈 指数 级 增长 。 人 们 能 够 比较 容易 地 收集 大 量 的 没有 标签 的 数据 ， 但 要 


样本 进行 学 习 ， 提 高 分 类 任务 的 准确 率 。 


因此 有 


标签 的 训练 


获取 大 量 有 标签 的 数据 则 较为 困难 ， 因 为 这 可 能 需要 耗费 大 量 的 人 力 物力 。 例 如 , 在 生物 学 
中 进行 数据 分 类 ， 得 到 一 个 训练 样本 的 标签 往往 需要 大 量 的 ， 长 时 间 的 ， 昂贵 的 实验 ; 在 进 
ÍT Web 网 页 推荐 时 ， 用 户 也 不 愿意 花费 大 量 的 时 间 来 标记 哪些 网 页 是 他 感 兴 趣 的 ， 
标签 的 网 页 很 少 。 实际 上 ,在 真实 世界 中 通常 存在 大 量 的 无 标签 的 数据 ， 而 有 标签 的 数据 则 
较 少 。 这 就 需要 一 种 机 器 学 习 技 术 , 能 够 利用 大 量 的 无 标签 样本 数据 以 及 少量 


按照 周志 华 〈 音 译 ，Zhi-Hua Zhou) 等 人 FI 在 文献 中 的 阐述 ， 目 前 能 够 利用 少量 有 标签 


数据 和 大 量 没 有 标签 样本 数据 的 技术 有 三 类 : 半 监 督学 习 (Semi-supervised 


3V £2] (Transductive Learning) 和 主动 学 习 (Active Learning)。 这 些 学 习 方法 都 通过 大 


Learning)、 直 推 


三 


FH 


的 无 标签 样本 来 辅助 少量 有 标签 样本 的 学 习 , 学 习 过 程 中 不 需要 人 工 干预 。 但 它们 的 思路 又 


习 时 并 不 知道 最 终 的 测试 用 例 是 什么 。 因 此 ， 半 监督 学 习 考虑 的 是 一 个 “ 开 
学 习 中 不 知道 测试 样本 是 什么 , 而 直 推 式 学 习 考虑 的 则 是 一 个 “封闭 世界 ”， 


有 些 不 同 。 直 推 式 学 习 假设 无 标签 的 数据 就 是 最 终 要 用 来 测试 的 数据 , 学 习 的 目的 就 是 在 这 


些 数 据 上 取得 最 佳 泛 化 能 力 。 与 之 不 同 ， 半 监督 学 习 基 于 自身 对 无 标签 数据 加 以 利用 ,在 学 


放 的 世界 ”， 即 在 
要 测试 的 样本 数 


据 已 经 参与 到 学 习 过 程 中 。 如 果 抛 开 是 否 对 未 知 样本 进行 预测 ,其 实 直 推 式 学 习 可 以 归结 为 


半 监 督学 习 的 一 种 特例 。 主 动 学 习 与 半 监 督学 习 、 直 推 式 学 习 最 大 的 区 别 在 于 它 的 学 习 过 程 


需要 人 工 的 干预 , 就 是 在 学 习 过 程 通过 反馈 尽 可 能 地 找到 那些 包含 信息 量 大 的 样本 来 辅助 少 


量 有 标签 样本 的 学 习 。 在 传统 机 器 学 习 中 ,这 三 种 方法 已 经 得 到 了 广泛 应 月 


qp 。 多 视角 当 


学 


5J (Multi-view Learning) 也 是 半 监 督学 习 一 个 很 重要 的 学 习 任务 。 雅 罗 沃 斯 基 (Yarowsky) 中 


和 布朗 姆 (Blum) 等 人 [认为 数据 的 多 视角 表示 方式 可 以 提高 半 监 督 分 类 学 
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习 算 法 的 性 能 


Go 


更 进 


c 


近年 来 也 有 很 


步 ， 文 献 [45-47] 


迁移 学 习 研 究 ; 


型 


概率 近似 了 


EA 


进行 了 研究 


目标 领域 中 


少量 


标签 数据 之 间 的 不 匹配 程度 ， 
综合 半 监 督学 习 的 三 种 正则 化 技术 


pa 


上 用 ， 而 那些 低 1 


置 的 样本 由 


nj 


并 把 该 信息 应 用 


WE IEEE, qd iE HEP PUR 


388 


Fifi (PAC, Probability Approximately Correct, ) 方法 分 
了 联合 训练 (Co-training) 在 无 标签 数据 上 错误 率 的 上 界 。 


究 者 把 这 些 技术 应 
。 施 潇潇 〈 音 译 ，Xiaoxiao Shi) 45 AP! 
通过 似 然 偏 置 的 大 小 来 选择 领域 外 (out-of domain) 有 标签 的 档 
(Gin-domaim) 数 据 且 高 似 然 偏 置 的 有 标签 样本 被 也 


行 选择 。 雇 学 军 (音译 ，Xuejun Liao) “AHH 


用 到 迁移 学 习 领 域 。 文 献 [22] 对 主动 迁移 学 习 模型 
提出 了 一 种 跨 领域 的 主动 迁移 学 习 方法 ， 
PAS. ASHE RES IES 


预测 领域 内 


上 了 一 种 方法 ， 估 计 源 领域 中 的 每 个 样本 与 


到 逻辑 回归 ， 


。 庄 福 振 等 
期 望 正则 化 PI， 提 


出 基于 混合 正则 化 的 迁移 学 习 方 法 。 该 方法 首先 从 源 领域 训练 得 到 一 个 分 类 器 , 然后 通过 混 
合 正则 化 在 目标 领域 数据 上 进行 优化 。 

自学 习 (Self-taught Learning) 也 是 一 种 利用 大 量 无 标签 数据 来 提高 给 定 分 类 聚 类 任 
务 性 能 的 方法 。 自 学 习 被 应 用 于 迁移 学 习 中 , 因为 它 不 要 求 无 标签 数据 的 分 布 与 目标 领域 中 


的 数据 分 布 相同 。 瑞 纳 (Raina) 等 人 ? 
无 标签 的 样本 数据 构造 高 层 特征 , 然后 
这 些 简 洁 的 高 层 特征 表示 。 实 验 表 明 这 种 方法 可 以 极 大 地 提高 分 类 行 


2.2.2 多 任务 学 习 方 法 


少量 


多 任务 学 习 是 同时 对 几 个 相关 的 问题 进行 学 习 的 机 器 学 习 方法 。 这 些 人 有 


示 。 这 种 学 习 方式 同样 可 以 得 到 更 好 的 模型 ， 


出 多 个 任务 


个 任务 的 学 习 更 好 。 多 个 任务 学 习 可 以 应 用 了 


界 中 也 是 非 


因为 在 学 习 中 允许 各 个 任务 使 


此 多 任务 学 习 5 ”也 可 以 看 成 是 迁移 学 习 早 期 的 


在 使 


OH 


共同 的 表示 时 ， 可 以 并 行 地 执行 ,而且 这 些 


巴克 (Bakker) 等 人 四 运用 贝 叶 斯 方法 去 估计 多 个 问题 所 


任务 学 习 的 问题 。 白 静 ( 音 
然后 提出 了 一 种 算法 迭代 ， 
计 是 这 些 超级 特征 的 线性 
任务 学 习 的 问题 。 阿 伊里 鸟 (Argyriou) “AP 


译 


"np 


Jing 


Z 


a 


Z] 


标 领域 上 的 


性 能 。 


学 习 与 迁移 学 习 不 同 的 是 , 它 强调 算法 在 所 有 任务 _ 


2.2.3 基于 特征 选择 方法 


这 些 特征 进行 入 


那些 特征 应 


该 在 


种 两 阶段 的 特征 选择 


行 精确 化 从 而 得 到 适合 于 目标 领域 数据 的 分 类 器 。 戴 文 洲 〈 音 


征 来 训练 一 


基于 特征 选择 的 迁移 学 习 方法 是 识别 H 
GE Ol, ee CEE, Jing Jiang) 等 人 M1 认为 与 样本 类 别 高 度 相 关 的 
因此 他 们 在 领域 适应 问题 中 提出 了 一 
源 领域 和 目标 领域 


| 练 得 到 的 模型 中 被 赋予 更 高 的 权重 ， 
E 架 。 第 一 阶段 首先 选 出 所 有 领域 (包括 


个 通 


HE 合 。 文 献 [57] 利 用 特 


56] 


Bai) 等 人 


究 学 习 了 多 个 任务 ， 
发 现 对 所 有 任务 都 有 效 的 超级 特征 , 最 终 4 
征 和 核 函 数 的 选择 结合 支持 向 
提出 了 一 种 针对 多 任务 的 空间 降 维 技术 ， 试 


究 。 卡 鲁 阿 


EH TP AFAINA, ER H 
标签 的 数据 以 及 目标 领域 无 标签 的 样本 数据 都 
EF 务 的 准确 率 。 


EX 


码 技术 对 


AN 


< 部 相同 的 


纳 


任务 在 学 习 ， 


它们 之 间 共 


相互 获 利 ， 比 单 
许多 不 同 的 领域 和 不 同 的 算法 ， 因 


性 


(Caruana) 指 


此 在 现实 世 


< 有 的 特征 参数 ， 从 而 解决 多 
的 非 参 数 共同 结构 ， 
E 成 每 个 任务 的 函数 佑 


E 
FR 


机 来 解决 多 


寻找 一 个 可 以 表示 所 有 任务 的 低 维 特征 空间 。 类似 相关 的 工作 还 有 引文 [59-60]。 但 多 任务 


译 


i mJ 


F 都 要 表现 得 很 好 ， 而 迁移 学 习 只 强调 


8 源 领 域 与 目标 领域 中 共有 的 特征 表示 , 然后 利用 


) 共有 的 特 


后 从 目标 领域 无 标签 样本 中 选择 特有 特征 来 对 通用 分 类 器 进 
W.Y. Dai) 等 人 四 提出 了 


思想 是 识别 出 领域 


一 种 基于 联合 聚 类 《〈Co-clustering) 的 预测 领域 外 文档 的 分 类 方法 CoCC。 该 方法 通过 对 类 
别 和 特征 进行 同步 聚 类 ， 实 现 知 识 与 类 别 标签 的 迁移 。CoCC 算法 的 关键 | 
内 (也 称 为 目标 领域 ) 与 领域 外 (也 称 为 源 领 域 ) 数 据 共 有 的 部 分 ， 即 
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别 信息 以 及 知识 通过 这 些 共 有 的 词 特征 从 源 领 域 传 到 目标 领域 。 
2.2.4 基于 特征 映射 方法 
基于 特征 映射 的 迁移 学 习 方 法 是 把 各 个 领域 的 数据 从 原始 高 维特 征 空间 映射 到 低 维 特 


> 


和 


征 


上 用 低 维 空间 表示 的 有 标签 的 源 领 域 样本 数据 训练 分 类 器 , 对 目标 测试 数 


领域 数据 在 隐 性 语义 空间 上 的 最 大 均值 偏差 (Maximun Mean Discrepancy)， 求 解 得 到 降 维 
后 的 特征 空间 。 在 该 隐 性 空间 上 , 不 同 的 领域 具有 相同 或 者 非常 接近 的 数据 分 布 ,因此 就 可 
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据 进行 预测 。 该 方 


法 与 特征 选择 的 区 别 在 于 这 些 映射 得 到 的 特征 不 在 原始 的 特征 当中 ， 是 全 新 的 特征 。 


潘 嘉 林 等 人 [提出 了 一 种 新 的 维度 降低 迁移 学 习 方 法 , 他 通过 最 小 化 源 领 域 数据 与 目标 


以 直接 利用 监督 学 习 算 法 训练 模型 对 目标 领域 数据 进行 预测 。 顾 全 果 (音译 ，Quanquan Gu) 
等 人 [9 探讨 了 多 个 聚 类 任务 的 学 习 ( 这 些 聚 类 任务 是 相关 的 ), 提出 了 一 种 寻找 共享 特征 子 空 
间 的 框架 。 在 该 子 空间 中 ,各 个 领域 的 数据 共享 聚 类 中 心 ， 而 且 他 们 还 把 该 框架 推广 到 直 推 
式 迁移 分 类 学 习 , 布 利 泽 (Blitzer) 等 人 中 提出 了 一 种 结构 对 应 学 习 算法 (Structural Correspond- 


ing Learning，SCL)。 该 算法 把 领域 特有 的 特征 映射 
在 这 个 “ 轴 ” 特 征 下 进行 训练 学 习 。 结 构 对 应 学 习 算 法 已 经 被 用 到 词性 标注 趾 以 及 情感 分 析 史 9 


到 所 有 领域 共享 的 “ 轴 ” 特 征 ， 然 后 就 


中 。 类 似 的 工作 还 有 引文 [67] 等 。 
2.2.5 基于 权重 方法 


在 迁移 学 习 中 ， 有 标签 的 源 领 域 数据 的 分 布 与 无 标签 的 目标 领域 数据 的 分 布 是 不 一 样 
的 ， 因此 那些 有 标签 的 样本 数据 并 不 一 定 是 全 部 有 用 的 。 如 何 侧重 选择 那些 对 目标 领域 分 类 


lumi 


有 利 的 训练 样本 ? 这 就 是 基于 实例 的 迁移 学 习 所 要 解决 的 问题 。 基 于 实例 的 迁移 学 习 通 过 度 
量 有 标签 的 训练 样本 与 无 标签 的 测试 样本 之 间 的 相似 度 来 重新 分 配 源 领域 中 样本 的 采样 权 
E。 相 似 度 大 的 ， 即 对 训练 目标 模型 有 利 的 训练 样本 被 加 大 权重 ,否则 权重 被 曾 弱 。 薄 更 等 


人 提出 了 一 种 实例 权重 框架 来 解决 自然 语言 处 理 任务 下 的 领域 适应 问题 。 他 们 首先 从 分 
布 的 角度 分 析 ， 认 为 产生 领域 适应 问题 的 原因 主要 有 两 方面 : 实例 的 不 同 分 布 以 及 分 类 函数 
的 不 同 分 布 。 因 此 他 们 提出 了 一 个 最 小 化 分 布 差异 性 的 风险 函数 ， 来 解决 领域 适应 性 问题 。 
A CURAS AU?! 将 Boosting 学 习 算 法 扩展 到 迁移 学 习 中 , 提出 了 TrAdaBoo 
代 中 改变 样本 被 采样 的 权重 , 即 在 近代 时 降低 源 领域 中 的 样本 权重 , 加 大 有 利于 模型 训练 的 
目标 领域 中 的 样本 权重 。 他 们 还 用 “概率 近似 正确 ”方法 分 析 证 明了 该 算法 的 有 效 性 。 下 面 
简要 介绍 TrAdaBoost 算法 。 


ES 


样本 对 目标 测试 样本 是 适用 的 


些 适 合 测试 数据 的 实例 ,并 把 这 些 实例 迁移 到 目标 领域 中 少量 有 标签 样本 


st 算法 。 TERE RIE 


用 于 迁移 学 习 任 务 中 的 源 领 域 数据 与 目标 领域 数据 虽然 分 布 不 同 , 但 是 相关 的 。 也 就 是 
甫 助 的 源 领 域 中 , 存在 一 部 分 比较 适合 用 来 学 习 一 个 有 效 的 分 类 模型 的 训 
于 是 TrAdaBoost 算法 的 目标 就 是 从 辅助 的 源 数据 中 找 出 那 


练 样本 , 并 且 这 些 


的 学 习 中 去 。 该 算 


法 的 关键 思想 是 利用 Boosting 的 技术 过 滤 掉 源 领 域 数 据 中 那些 与 目标 领域 中 少量 有 标签 样 


本 相似 性 最 差 的 样本 数据 。 其 中 ，Boosting 技术 用 来 建立 一 种 自动 调整 权重 机 制 ， 于 是 重要 
的 源 领 域 样本 数据 权重 增加 ， 不 重要 的 源 领 域 样本 数据 权重 减 小 。 在 TrAdaBoost 中 ， 


AdaBoost!** 被 用 在 目标 领域 中 少量 有 标签 样本 ， 以 保证 分 类 模型 在 目标 
在 源 领 域 数 据 上 ， 用 于 自动 调节 源 领 域 数据 的 重要 度 。 一 个 直观 
TrAdaBoost 的 例子 如 图 2 所 示 。 另 外 对 参数 加 权 组 合 的 工作 ， 如 引文 [69]。 


PE; 而 Hedge(B)[68 被 月 


领域 数据 上 的 准 古 


根据 是 否 从 多 个 源 领 域 数 据 学 习 , 迁移 学 习 算法 又 可 以 分 为 单个 源 领 


成 以 及 多 个 源 领域 


的 迁移 学 习 。 本 - 戴 维 (Ben-David) 等 人 中 分 析 了 领域 数据 的 表示 ， 并 提出 了 一 个 很 好 的 模 
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型 。 该 模型 不 仅 使 分 类 模型 在 训练 数据 上 的 泛 化 误差 最 小 化 ,而且 使 源 领域 与 目标 领域 之 间 
的 不 同性 最 小 化 。 凌 霄 音译，Xiao Ling) 等 人 [提出 了 一 种 新 的 光谱 分 类 算法 ， 该 算法 
通过 优化 一 个 目标 函数 来 寻找 源 领 域 中 的 监督 信息 与 目标 领域 的 本 质 结构 之 间 的 最 大 一 致 
性 。 庄 福 振 等 人 1 "综合 半 监 督学 习 中 的 几 种 正则 化 准则 ， 提 出 了 基于 混合 正则 化 准则 的 迁 
移 学 习 框架 。 马 哈 茂 德 (Mahmud) 等 人 PT 从 算法 信息 论 的 角度 来 研究 迁移 学 习 ， 该 方法 
度量 了 不 同 任务 之 间 的 相关 性 , 然后 决定 多 少 信息 可 以 做 迁移 以 及 怎么 迁移 这 些 信息 。 邢 迪 
(il (FRE, DikanXing) 等 人 口 提 出 了 一 种 直 推 式 迁移 学 习 方 法 ， 该 方法 首先 开发 利用 所 有 
数据 集 (包括 源 领 域 数 据 和 目标 领域 数据 ) 上 的 几何 分 布 结构 ， 然 后 再 利用 目标 领域 上 的 流 
形 结构 。 针 对 多 源 领域 学 习 问 题 ， 高 静 Cling Gao) 等 人 [提出 了 一 种 多 模型 局 部 结 

构 映 射 方案 , 实际 上 是 对 不 同 源 领域 训 


练 得 到 的 模型 赋予 不 同 的 投票 权重 , 而 nr 
该 权重 是 由 预测 样本 本 身 的 局 部 分 布 pav me 
结构 决定 的 。 高 静 等 人 [3 解决 了 不 同 - 


模型 的 一 致 性 问题 ,这 两 个 多 源 领 域 学 
习 的 工作 很 好 地 处 理 了 多 个 模型 的 集 (@) 当 有 标注 的 训练 样本 很 少 的 (b) 如 果 我 们 能 有 大 量 的 辅助 训 
成 问题 。 为 了 更 加 深入 地 挖 据 、 开 发 各 PORT RSE ESD se e Buster OE 
个 源 领域 数据 的 内 部 结构 或 者 数据 分 
布 ， 罗 平和 庄 福 振 等 人 5 提出 了 一 
致 性 正则 化 框架 。 在 这 个 框架 下 ,局 部 
的 子 分 类 器 不 仅 考 虑 了 在 源 领 域 上 的 
可 利用 的 局 部 数据 , 而 且 考 虑 了 这 些 


源 领 域 知 识 得 到 的 子 分 类 器 在 目标 领 (d) Tr Ada Boost 算 法 通过 增加 
源 领 域 知识 得 到 的 子 分 类 器 在 LE 误 分 类 的 源 数据 的 权重 ， 减 小 
域 上 的 预测 的 一 致 性 。 段 立新 (音译 ， 。 圈 标 出 的 数据 就 分 错 了 。 误 分 类 的 目标 数据 权重 ， 来 使 
ME Oum MA EA 得 分 类 面向 正确 方向 移动 。 
Lixin Duan) 等 人 “利用 源 领域 训练 得 

到 的 模型 作为 辅助 分 类 器 。 图 2， 关 于 TrAdaBoost 算法 思想 的 一 个 直观 示例 5 


3 ”迁移 学 习 相 关 理 论 研究 


从 理论 层面 讲 , 迁移 学 习 问 题 研究 以 下 问题 : 第 一 ， 什 么 条 件 下 从 源 领 域 数据 训练 出 的 
分 类 器 能 够 在 目标 领域 表现 出 优 蜡 的 分 类 性 能 , 即 什么 条 件 下 可 进行 迁移 ? 第 二 , 给 定 无 标 
注目 标 领域 , 或 者 有 少量 的 标记 数据 ,如 何在 训练 过 程 中 与 大 量 有 标记 的 源 数据 结合 使 得 测 
试 时 的 误差 最 小 , 即 迁 移 学 习 算法 的 研究 。 目 前 对 迁移 学 习 理 论 研究 比较 多 的 主要 是 在 领域 
适应 性 方面 。 


关于 领域 适应 性 问题 的 理论 分 析 最 早 是 本 - 戴 维 等 在 文献 [2] 中 提出 的 。 该 文 基于 VC HE" 
对 领域 适应 性 问题 给 出 了 推广 性 的 界 。 该 文 最 有 价值 的 贡献 在 于 定义 了 分 布 之 间 的 距离 , 此 
距离 与 领域 适应 性 有 关 。 在 此 基础 上 ， 对 有 限 VC 维 情况 ， 可 用 他 们 在 引文 [74] 中 提出 的 方 
法 ， 从 有 限 个 样本 估计 适应 推广 能 力 。 但 是 当 VC 维 不 是 有 限 的 情况 下 会 有 什么 样 的 结论 该 
文 没有 涉及 ,需要 进一步 探讨 ,另外 不 同 的 领域 分 布 之 间 的 距离 会 得 出 不 同 精度 的 误差 估计 ， 
由 此 可 以 通过 研究 各 具 特 色 的 距离 用 于 解决 领域 适应 性 问题 ， 以 适应 不 同 应 用 场合 的 需要 。 
本 - 戴 维 站 还 通过 实验 指出 结构 对 应 学 习 方法 确实 能 够 达到 4 距离 最 小 的 同时 间隔 损失 最 
低 ， 从 而 提高 目标 领域 上 的 学 习性 能 。 本 - 戴 维 等 人 中 分 析 了 领域 数据 的 表示 ， 并 提出 了 一 
个 很 好 的 模型 。 该 模型 不 仅 使 分 类 模型 在 训练 数据 上 的 泛 化 误差 最 小 化 ,而 且 使 源 领域 与 目 


”Vapnik-Chervonenkis Dimension， 是 一 种 对 统计 分 类 算法 能 力 的 度量 ， 详 见 http://en.wikipedia.org/wiki/ 
VC dimension 
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加 权 组 合 获得 
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模型 , FAH 
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县 技术 性 
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最 小 化 。 这 项 工作 后 续 研 究 的 阶段 性 成 果 见 引文 [33]， 该 文 从 源 数据 
在 特定 的 经 验 风 险 最 小 化 的 情形 下 的 误差 率 。 最 新 的 成 果 发 表 在 
F 的 Machine Learning (《 机 器 学 习 》) 杂志 上 [5。 该 文 研 究 了 在 什么 条 件 下 一 个 分 类 器 
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能 在 目标 领域 很 好 完成 分 类 任务 ， 还 1 


过 程 将 其 与 大 量 的 已 标注 的 源 数据 相 
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FT AE H bs Usi P ERE EAA 


EF 本 ， 如 何在 训练 


结合 ， 


目标 误差 最 小 。 


jd 


可 


PNET Se EO. IE 
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目前 的 工作 尽管 已 经 进行 了 一 些 到 


He 


目标 
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于 任意 的 


的 雷 尼 散 度 (Rényi divergence ) 的 领域 推广 误差 ” 
回归 和 一 般 的 损益 函数 ， 并 提出 通过 加 


ay 


有 待 进一步 深入 。 


px 


4 ”基于 生成 模型 的 迁移 学 习 方 法 


目前 很 多 迁移 学 习 算 法 者 


是 基于 判别 模型 HOSS, a FY 


接 训练 得 到 判别 模型 P(Y|X)。 


虑 联合 概率 P (X, Y), A 


x 
A 


可 
提高 算法 的 性 能 [5 
在 迁移 学 习 文本 分 类 


说 它们 可 能 会 采 


i" 


AE 


此 有 时 不 


能 得 至 


P ， 源 领域 数据 与 目标 领域 数据 在 原始 词 特征 上 分 布 不 一 致 ， 也 就 
不 同 的 词 特征 来 表示 同一 个 语义 概念 。 但 我 们 发 现 不 同 的 领域 数据 ， 
词 特征 聚 类 (又 称 词 特征 概念 ) 与 文档 类 别 ( 又 称 文档 聚 类 、 文 档 概念 ) 之 间 的 关联 关系 可 


权 实 现 经 验 分 布 更 好 地 反映 目 
试 , 但 还 远 远 不 足 , 对 迁移 学 习 有 效 性 的 到 


于 源 领 域 与 目标 领域 数据 分 布 不 一 致 ， 判 别 模型 没有 
I 很 好 的 预测 结果 。 与 判别 模型 不 同 ， 生 成 模型 
计算 得 到 联合 概率 P(X，Y)， 然 后 再 计算 P(Y|X)。 这 样 ， 就 提供 了 一 种 很 好 的 机 秆 
以 为 源 领域 和 目标 领域 数据 不 同 分 布 建 模 , 实现 源 领 域 与 


函数 ， 存 在 一 个 对 源 假设 的 领域 加 权 分 布 组 


基于 源 领 域 和 目标 领域 
的 推广 误差 上 界 估计 应 
标 领域 分 布 [1。 


E 论 研究 还 


目标 分 布 ， 给 出 了 
o EAN 


下 面 介 绍 下 我 们 利用 生成 模型 在 迁移 学 习 方面 做 的 工作 。 
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目标 领域 之 间 的 知识 迁移 ， 从 而 


HJ 
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2u 
能 是 


一 样 的 。 比 如 ,表示 词 特征 概念 *Computer Science” 的 词 有 “hardware”、“software”、“program”、 


“programmer”“disks” 以 及 “ROM” 等 ， 但 是 这 些 词 在 不 同 的 领域 
在 关于 人 硬件 公司 的 新 闻 网 页 中 ,“hardware”“disks” 以 及 “ROM” 可 能 是 高 频 词 ， 而 帮 


T4 
因 
器 可 能 是 不 可 靠 的 .如 果 我 们 能 够 找 虽 


公司 的 新 闻 网 页 中 , "software 


Li 
O 


» [1 
^ 


program" Lie “programmer” 3 Hy 
此 不 同 的 领域 表示 同一 个 概念 的 词 特征 差异 很 大 , 这 就 会 导致 用 原始 特征 训练 得 到 的 分 类 
各 个 领域 的 词 特征 概念 , 并 用 它们 来 预测 样本 的 类 别 ， 


口 


J 能 频率 相差 很 大 。 
EX 
频 词 。 


Ab ET 
He XE IRI 


ABA wes EG AB A e t 
哪 一 个 领域 ,只 
文档 类 。 BAM 
关系 定义 为 词 概念 内 涵 ， 
基于 生成 模型 的 挖掘 


HE 
E 


多 领域 之 间 共 愧 


E 要 可 靠 和 有 效 。 从 上 面 的 例子 可 以 看 到 , 一 个 网 页 不 
包含 特征 概念 “Computer Science”， 那 么 该 网 页 就 是 属于 计算 机 相关 的 
巴 表 示 词 特征 概念 的 词 ， 定 义 为 词 概念 外 延 ， 把 词 特征 概念 与 文档 类 别 之 间 的 
文档 类 别 中 包含 的 具体 文档 定义 为 文档 类 别 外 延 。 我 们 [5 而 
的 跨 领 域 分 类 方法 , 对 有 效 挖掘 词 特征 聚 类 与 文 


H 


档 类 别 关联 关系 进行 了 深入 
图 3 4 


ji. 其 
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与 特 ' 
主要 思想 如 


P, BES REIT 


X88) 
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AP NIA 


E 


档 概 念 之 间 的 联合 概率 分 布 ， 即 图 
源 领 域 中 文档 概念 的 外 延 已 知 ， 可 
督 信息 通过 领域 之 间 的 共性 实现 知 


Ed 
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SE 


域 数据 的 分 类 预测 。 实验 结果 表明 i 
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Pets 
Ei 
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是 来 自 于 


完了 


图 3 所 示 。 


ER 
六 档 概念 的 外 延 。 领域 的 特性 包括 所 有 的 外 延 , 而 领域 的 
中 的 八 边 形 所 示 。 实 
以 作为 整个 模型 的 监督 信息 ， 如 图 
识 的 迁移 。 
玄 算 法 具有 较 强 的 迁移 学 习 能 力 , 可 以 处 理 迁移 学 习 比 


医 ， 分 别 为 各 个 领域 词 特征 概念 的 外 延 和 
性 则 是 它们 共享 的 词 特征 概念 与 
上 源 领 域 中 的 数据 是 有 标记 的 ， 
性 起 到 桥 的 作用 ,最 后 实现 对 目标 


际 


域 的 
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较 难 的 分 类 问题 。 我 们 还 对 基于 判别 模型 和 基于 生成 模型 的 迁移 学 习 算 法 进行 了 初步 的 控 
讨 , 认为 基于 生成 模型 的 方法 可 以 有 效 地 对 源 领 域 与 目标 领域 之 间 的 差异 进行 建 模 , 这 可 能 


^7 s 个 源 域 
词 概念 外 延 


t — oe x-—" 


更 加 适合 迁移 学 习 。 
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图 3. 


"N 


不 同 领域 之 间 的 共性 和 特性 
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文档 概念 外 延 
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p(d|z.c.«) 


在 第 (s+1) 个 域 


/ 个 目标 域 C 
词 概念 外 延 


tu m e e 


以 往 的 工作 5 假设 源 领域 和 目标 领域 共享 相同 的 概念 集 , 但 是 除了 共享 概念 以 外 ,不 


同 领 域 可 能 还 包含 自己 独特 的 概念 。 我 们 对 不 同 领域 的 概念 进行 了 深入 的 分 析 吕 ， 把 概念 


分 成 三 类 : 一 致 和 


挖掘 这 三 种 概念 ， 


解 。 大 量 的 实验 结果 表明 所 提出 上 


概念 、 相 似 概念 以 及 领域 特有 的 概念 。 我 们 提出 了 一 般 的 概率 统计 模型 来 


EJ 


RTH 


5 ”未 来 研究 方向 


本 文系 统 地 给 出 了 迁移 学 习 算 法 以 及 相关 理论 的 研究 进展 ,迁移 学 习作 为 一 个 新 兴 的 研 
究 领 域 还 很 年 轻 ， 目 前 工作 主要 还 是 集 


H 


FP 在 算法 方面 ， 因 


29 


期 望 最 大 化 (Expectation-Maximization，EM) 算法 进行 求 


的 模型 优 于 作为 对 比 的 迁移 学 习 算 法 。 


此 值得 我 们 进 


步 研究 。 
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迁移 学 习 最 早 来 源 于 教育 心理 学 ， 这 里 借用 美国 心理 学 家 页 德 Judd，C.H.) 提 出 的 “类 
化 说 ”学 习 迁 移 理论 来 讨论 目前 机 器 学 习 领 域 迁 移 学 习 研 究 还 存在 的 三 个 问题 。 首 先 ， 买 德 
认为 在 先期 学 习 A 中 获得 的 东西 ， 之 所 以 能 迁移 到 后 期 学 习 B 中 ， 是 因为 在 学 习 A 时 获得 
了 一 般 原 理 ， 这 种 原理 可 以 部 分 或 全 部 运用 于 A、B 之 中 。 根 据 这 一 理论 ， 两 个 学 习 活 动 之 


间 存 在 的 


tk 同 要 素 是 产生 迁移 的 必要 前 提 。 这 也 就 是 说 , 想 从 源 领 域 中 学 习 知 识 并 运用 到 


标 领域 中 ， 


必须 保证 源 领域 与 目标 领域 有 共同 的 知识 。 那么 如 何 度量 这 两 个 领域 的 相似 性 与 


共同 性 ， 是 问题 之 一 。 第 二 ， 贾 德 的 研究 表明 ， 知 识 的 迁移 是 存在 的 ， 只 要 一 个 人 对 他 的 经 


验 、 知 识 进 行 了 概括 ， 那 么 从 一 种 情境 到 另 一 种 情境 的 迁移 是 可 能 的 。 知 识 概括 化 的 水 平 越 
高 ， 迁 移 的 范围 和 可 能 性 越 大 。 把 该 原则 运用 到 课 普 上 ， 同 样 的 教材 采用 不 同 的 教学 方法 ， 
产生 的 迁移 效果 是 不 一 样 的 , 既 可 能 产生 积极 迁移 也 可 能 产生 相反 的 作用 。 即 同样 的 教材 内 


容 ， 由 于 教学 方法 不 同 ， 而 使 教学 效果 大 为 莽 殊 ， 迁 移 的 效应 也 大 不 相同 。 所 以 针对 不 同 的 


学 习 问 题 ， 


研究 有 效 的 迁移 学 习 算法 也 是 另 一 个 重要 问题 。 第 三 ， 根 据 页 德 的 泛 化 理论 E 


要 的 是 在 


授 教 材 时 要 鼓励 学 生 对 核心 的 基本 的 概念 进行 抽象 或 概括 。 抽 象 与 概括 的 学 习 方 


是 
法 是 最 重要 的 方法 , 即 要 求学 生 在 学 习 的 时 候 对 知识 进行 思维 加 工 , 区 别 本 质 的 和 非 本 质 的 
属性 ， 偶 然 的 和 必然 的 联系 ,舍弃 那些 偶然 的 、 非 本 质 的 东西 ， 牢 牢 把 握 那 些 必然 的 本 质 的 


东西 。 这 种 学 习 方 法 能 使 学 生 的 认识 从 低级 的 感性 阶段 上 升 到 高 级 的 理性 阶段 , 从 而 实现 更 
| 泛 更 成 功 的 正 向 迁移 。 也 就 是 说 在 迁移 学 习 的 过 程 中 ， 应 该 避免 把 非 本 质 的 、 侦 然 的 知识 


当成 本 质 的 (领域 共享 的 )、 必 然 的 知识 ， 这 样 才能 实现 正 迁 移 。 所 以 ， 如 何 实现 正 迁 移 ， 避 


免 负 迁移 也 是 迁移 学 习 的 一 个 重要 研究 问题 。 


此 ， 


Ii 


我 们 认为 后 续 研 究 有 以 下 几 个 可 能 的 方向 : 第 一 ， 研 究 领 域 相似 性 、 共 同性 的 准 


步 研 究 ， 


迁移 学 习 算法 有 效 性 的 理论 , 如 : 可 迁移 学 习 条 件 , 如 何 获取 实现 正 迁移 所 需要 的 本 质 属 性 ， 


角度 量 方法 ; 第 二 ， 除 了 目前 很 受 重 视 的 迁移 学 习 分 类 算法 外 ， 其 他 方面 的 应 用 算法 有 待 进 


比如 情感 分 类 ， 强 化 学 习 ， 排 序 学 习 ， 度 量 学 习 ， 人 工 智 能 规划 等 ， 第 三 ， 研 究 


如 何 避 免 负 迁 移 ， 最后， 在 大 数据 环境 下 ， 研 究 高 效 的 迁移 学 习 算 法 尤为 重要 。 目 前 的 研究 


y v y: 
TEES 


殿中 在 研究 领域 , 数据 量 小 而 且 测试 数据 非常 标准 , 应 把 研究 的 算法 瞄准 实际 应 用 


数据 ， 以 适应 目前 大 数据 挖掘 研究 浪潮 。 
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